xpath路径的写法

关于xpath路径的写法

1.选取节点

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性

举例

1.查找页面根元素：//

2.查找页面上所有的input元素：//input

3.查找页面上第一个form元素内的直接子input元素(即只包括form元素的下一级input元素，使用绝对路径表示，单/号)：//form[1]/input

4.查找页面上第一个form元素内的所有子input元素(只要在form元素内的input都算，不管还嵌套了多少个其他标签，使用相对路径表示，双//号)：//form[1]//input

5.查找页面上第一个form元素：//form[1]

6.查找页面上id为loginForm的form元素：//form[@id='loginForm']

7.查找页面上具有name属性为username的input元素：//input[@name='username']

8.查找页面上id为loginForm的form元素下的第一个input元素：//form[@id='loginForm']/input[1]

9.查找页面具有name属性为contiune并且type属性为button的input元素：//input[@name='continue'][@type='button']

10.查找网页中所有属性为id的元素 : //@id

2.对于节点查找的内容进行修饰

举例

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position() < 3 ]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

3.选取未知节点

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

举例

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

4.选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。
//title \| //price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

5.关键字

用例	举例
text()	book/author/text()
string()	book/author/string()
data()	book/author/data()
.	book/author/.

举例

XML例子

<book>
    <author>Tom <em>John</em> cat</author>
    <pricing>
        <price>20</price>
        <discount>0.8</discount>
    </pricing>
</book>

text()

经常在XPath表达式的最后看到text()，它仅仅返回所指元素的文本内容。

爬取的xpath格式为book/author/text()
爬取下来的内容是Tom cat
其中的John不属于author直接的节点内容。

string()

string()函数会得到所指元素的所有节点文本内容，这些文本讲会被拼接成一个字符串。

爬取的xpath格式为string(book/author)
爬取下来的内容是Tom John cat
author头到尾部中间所有的内容都爬出来

data()

大多数时候，data()函数和string()函数通用，而且不建议经常使用data()函数，有数据表明，该函数会影响XPath的性能。

爬取的xpath格式为book/pricing/data()
爬取下来的内容是返回分开的20和0.8
他们的类型并不是字符串而是xs:anyAtomicType，于是就可以使用数学函数做一定操作。

爬取内容都为数字的时候只能使用data()，不能使用text()或 string()，因为XPath不支持字符串做数学运算。

posted @ 2019-06-25 12:28 小小咸鱼YwY 阅读(6176) 评论(3) 编辑收藏举报

刷新页面返回顶部

加载时间中.....

Python 前端 爬虫 数据库 Django Flask 微信小程序 Linux Go

xpath路径的写法

关于xpath路径的写法

1.选取节点

举例

2.对于节点查找的内容进行修饰

举例

3.选取未知节点

举例

4.选取若干路径

5.关键字

公告

加载时间中.....

Python 前端 爬虫 数据库 Django Flask 微信小程序 Linux Go

xpath路径的写法

关于xpath路径的写法

1.选取节点

举例

2.对于节点查找的内容进行修饰

举例

3.选取未知节点

举例

4.选取若干路径

5.关键字

公告

Python 前端爬虫数据库 Django Flask 微信小程序 Linux Go